Projet : Analyse exploratoire d’un jeu de données d’un ensemble de titres présents sur les plateformes Youtube et Spotify

Equipe Zelda :
Zoé Boutin, Brian Diffo Diffo, Hanxiao Sun, HUANG He

________________________________________________________________________________________________________________

Important :

Veuillez téléchargé le jeu de données ici puis le mettre dans le dossier /data du projet.

Introduction

Dans le cadre de l’unité d’enseignement IF36 de l’Université de Technologie de Troyes, nous entreprenons ce projet d’analyse exploratoire d’un dataset choisi pour mettre en pratique nos connaissances en data visualisation.

Jeu de Données

Les données utilisées dans ce projet de data visualisation sont des informations sur des chansons publiées sur Spotify et Youtube. Nous avons accès à des informations générales sur chaque titre comme l’artiste et l’album ou le single dont il est issu, ainsi que des attributs comme le tempo, la duration ou encore la danceabilité. Notre jeu de données peut être répartit en trois sous-groupes : les informations générales sur le titre, les informations liées à Spotify (nombre de streams, URI,…) et les informations liées à Youtube (nombre de vues, nombres de likes, chaîne youtube,…).

Les données ont été collectées sur la plateforme Kaggle. Mais le dataset ne contenait pas les dates de sortie des chansons, ce qui est une information très importante. Nous avons donc utilisé l’identifiant unique de chaque chanson (URI) pour récupérer sa date de sortie grâce à l’API Spotify et la bibliothèque ‘spotifyr’ de R.

Motivations

Nous avons choisi ce jeu de données du fait de la diversité et richesse des données. Le dataset comprend 19064 lignes, chaque ligne représentant une chanson d’artistes variés à travers le monde. Les 26 variables présentes pour chaque chanson offrent une richesse d’informations, incluant des données générales plus textuelles sur chaque titre comme le nom de la chanson et l’artiste. Mais ce qui nous a particulièrement plu sont les informations statistiques sur les plateformes Spotify et Youtube, qui nous permettront de faire une comparaison entre les deux plateformes. Enfin, le dataset comporte des données sur les attributs musicaux de chaque chanson (danceabilité, énergie, tonalité, volume,…) sous forme de coefficients ou autre valeurs numériques que l’ont a trouvé très pertinent à analyser.

La musique est un élément central de la culture populaire, touchant un large public. Analyser les données musicales permet non seulement d’explorer des tendances et des comportements sur les plateformes populaires comme Spotify et Youtube, mais aussi de répondre à des questions d’intérêt général sur la musique, comme :

  • Quels sont les attributs musicaux des chansons les plus streamées ou les plus vues ?

  • Y a-t-il une corrélation entre les streams Spotify et les vues YouTube ?

  • Quels genres ou artistes sont les plus populaires ?

Nous avons tous utilisé Spotify ou Youtube pour écouter de la musique, ce qui rend le sujet non seulement pertinent mais aussi personnellement intéressant. En travaillant sur ce projet, nous pouvons combiner notre passion pour la musique avec nos compétences techniques en data science, ce qui rend l’expérience d’apprentissage à la fois enrichissante et motivante.

Problématique

Comment les caractéristiques musicales et les métriques d’engagement des chansons publiées sur Spotify et YouTube influencent-elles leur popularité et leur consommation sur ces plateformes de streaming, et quelles tendances peuvent être dégagées de ces données en termes de temporalité, d’attributs musicaux et de comportement des utilisateurs ?

Nous avons centré notre analyse autour de certains axes d’analyse pour répondre à cette problématique :

  • Influence des caractéristiques musicales : Analyse des attributs des chansons (danceabilité, énergie, etc.) sur leur popularité.

  • Temporalité : Impact de la date de sortie des chansons sur leur nombre de streams et de vues.

  • Comparaison des plateformes : Relation entre les métriques d’engagement sur Spotify et YouTube.

  • Consommation des singles vs. albums : Préférences des utilisateurs pour différents types de publications.

  • Effet des caractéristique supplémentaires (featuring, musique officielle et/ou sous license) : Impact des collaborations, de l’officialité et des licenses sur la popularité des titres.

  • Evolution des tendances : Changements dans les attributs des chansons au fil du temps.

Collecte et Préparation des Données

Importation des modules

Nous utilisons des librairies non inhérentes au R basique dans notre analyse explorative. Les librairies/packages que nous chargeons font partie du Tidyverse.

Chargement des données depuis le fichier CSV

Notre jeu de données est stocké dans un fichier CSV (Excel). Nous devons importer les données dans notre code pour les transformées en ‘dataframe’ (type de variable en R) afin de pouvoir utiliser des fonctions de R et de nos librairies du Tidyverse pour ‘Explorer’ nos données.

Séparation de la date en année en mois et en jour

La date étant sous format chaine de caractère , cette transformation permettra de faciliter les analyses liées à l’évolution du temps.

Maintenant que nos données sont chargées, elles sont prêtes pour l’analyse.

Exploration

Afin de facilité la compréhension et la répartition des tâches, nous avons organisé notre analyse par question.

Question 1:

La date de sortie d’un titre a-t-elle un effet sur son nombre d’écoutes ?

Sous-question : Est-ce que l’échantillon de titres du dataset est composé majoritairement de titres qui sont ‘populaires’ indépendamment du temps ?

  • On s’attend à ce que : plus un titre a été publié il y a longtemps, plus il a de views/streams.

  • Ou à l’inverse, la date de publication n’a pas une grande corrélation avec le nombre d’écoutes et donc on peut dire que ce nombre d’écoute est purement lié à la popularité du titre.

Selection des colonnes qui nous intéressent pour cette question et transfer dans un nouveau dataframe ‘df_q1’
##         date annee mois     Stream     Views   Likes
## 1 2005-05-23  2005    5 1040234854 693555221 6220896
## 2 2010-03-03  2010    3  310083733  72011645 1079128
## 3 2022-08-31  2022    8   63063467   8435055  282142
## 4 2010-03-03  2010    3  434663559 211754952 1788577
## 5       <NA>  2001   NA  617259738 618480958 6197318
## 6 2005-05-23  2005    5  323850327 259021161 1844658
Création d’une colonne représentant le nombre total d’écoutes d’un titre indépendamment de la plateforme
##         date annee mois     Stream     Views   Likes ecoutes_totales
## 1 2005-05-23  2005    5 1040234854 693555221 6220896      1733790075
## 2 2010-03-03  2010    3  310083733  72011645 1079128       382095378
## 3 2022-08-31  2022    8   63063467   8435055  282142        71498522
## 4 2010-03-03  2010    3  434663559 211754952 1788577       646418511
## 6 2005-05-23  2005    5  323850327 259021161 1844658       582871488
## 7 2022-11-18  2022   11   10666154    451996   11686        11118150

Nous avons donc préparer un dataframe plus restreint pour cette question.

Avant de continuer avec l’analyse de cette question, il est important de comprendre quels choix d’échantillonage ont été faits lors de la création de ce jeu de données. Ce dataset ne comprend pas tous les titres spotify et youtube disponibles (il serait beaucoup trop grand pour notre cas d’utilisation dans ce scénario là), l’échantillon que nous avons a un grand effet sur les résultats et conclusions qu’on pourra en déduire. C’est donc important de comprendre les limitations de notre jeu de données pour les prendre en compte dans nos déductions et conclusions à venir.

Analyse de la distribution des chansons du jeu de données en fonction de l’année

On remarque que les chansons de notre dataset sont seulement des titres publiés entre 1918 et 2023. De plus, le jeu de données a beaucoup plus de chansons publiées depuis 2000 qu’avant avec une grande majorité pour les titres publiés en 2022. La distribution en termes d’année de publication du jeu de données n’est donc pas du tout régulière : le dataset est surtout concentré sur les chansons entre 2000 et 2023.

Nous avons pensé à faire un diagramme en camembert par année des chansons pour mieux comprendre la décomposition du jeu de données par années de publication.

Décomposition du jeu de données par années de publication

On remarque donc que les titres avant 2000 ne représentent même pas autant de titres de 2022 qui comptent pour environ 1/5 du jeu de données.

D’après la spécifications du jeu de données sur Kaggle : il a été créé et collecté le 7 février 2023. Ceci explique le peu de titres de 2023 malgré la tendance a avoir plus de titres réprésentés, plus le temps avance. L’échantillon de données est plus concentré sur des titres sortis ‘récemment’ par rapport à la création du dataset.

On peut aussi faire cette analyse du choix d’échantillonage vis à vis du nombre d’écoutes.

Analyse de la distribution des titres du jeu de données en fonction du nombre d’écoutes

On remarque que le jeu de données a des titres avec des nombres d’écoutes allant de moins de 50 millions jusqu’à presque 10 milliards. La plupart des titres ont moins de 500 millions d’écoutes totales.

## [1] "min_ecoutes_totales = 7020"

Le minimum d’écoutes totales est 7020.

Il semble donc que le jeu de données ne soit pas limité à des titres très populaires. Cependant, il est concentré sur des titres relativement beaucoup écoutés : la majorité des titres ayant entre 25 et 50 millions d’écoutes ce qui est quand même conséquent.

On peut maintenant passer à l’analyse plus pertinente à la question posée.
(Rappel de la question : La date de sortie d’un titre a-t-elle un effet sur son nombre d’écoutes ?)

Nombre total d’écoutes en fonction de l’année de publication
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Nous avons utilisé un diagramme de points pour d’abord voir ‘toutes’ les données sans appliquer de statistique descriptive comme les boîtes à moustaches. C’est pertinent dans le sens où l’on peut voir la densité des points et on a pû ajouter les courbes de moyenne et médiane pour avoir une légère couche statistique pour aider l’analyse.

On remarque que la moyenne et la médiane sont plutôt constantes en fonction du temps. Il y a une concentration plus élevée de points (titres) plus l’année est grande, ce qui est raccord à notre analyse de la distribution des chansons du jeu de données en fonction de l’année.

En rappelant que l’échelle du nombre d’écoutes est logarithmique, on remarque qu’il y a plus de titres avec un nombre d’écoutes énorme (les valeurs vers 10 milliards d’écoutes qu’on a vues dans la distribution en fonction du nombre d’écoutes) à partir de 2006 environ.

Or c’est aux alentours de 2006-2008 que sont apparues les plateformes de streaming qu’on étudie : Spotify et Youtube. Notre observation d’outliers en termes d’un grand nombre d’écoutes est donc probablement liée à l’émergeance de ces plateformes.

Diagramme en boîte à moustache du nombre d’écoutes total en fonction de l’année de publication (regroupée par décennie)

Nous avons utilisé un diagramme en boîte à moustache (box and whisker plot) car nous avons discrétisé le temps par année et que nous voulions nous concentrer sur la distribution statistique des valeurs afin d’en extraire des tendances (si il en existe). Ce graph est pertinent car il synthétise bien nos valeurs discrètes et facilite la recherche d’une relation entre la date de publication d’un titre et son nombre d’écoutes total. On peut faire notre analyse en omettant la décennie 1910 étant donné qu’il n’y a qu’un seul titre dans cette période : l’application statistique de la boîte à moustache n’a aucun intérêt dans ce cas précis.

En regroupant par décennie, on retrouve cette présence accrue d’outliers plus écoutés sur les deux dernières décennies. Notre interprétation est qu’avec la démocratisation grandissante des moyens de partager l’information (la musique en faisant partie) vers un grand public, il devient de plus en plus facile pour des chansons de devenir très populaires et ce très vite. La notion de “tubes du moment” ou de “chansons qui font le buzz” que nous connaissons tous aujourd’hui créée des titres qui représentent ces valeurs ‘outliers’ avec des nombres d’écoutes pharamineux dans notre graphique. L’émergeance des plateformes de streaming comme celles qu’on étudie, Spotify et Youtube, permet aussi de rendre plus accessible ces “tubes” ce qui peut à la manière d’une réaction en chaîne, accéléré le phénomène de “buzz” d’un “tube”.

On remarque aussi que les boites qui représentent les valeurs entre le premier quartile et le troisième quartile ont à peu près toutes la même taille et le même nombre d’écoutes médian. Ainsi, même si notre jeu de données a beaucoup plus de titres ‘récents’ : les écoutes totales sont plutôt équilibrées en moyenne. Ceci confirme notre observation que ce jeu de données est plutôt concentré sur des chansons qui sont relativement populaires et ce indépendamment du temps étant donné que nous avons des boîtes à moustaches similaires pour chaque décennie.

Cela confirme donc notre hypothèse initiale que les chansons plus anciennes (surtout celles datant d’avant Spotify et Youtube) représentées dans ce dataset sont des chansons encore toujours relativement “populaires” aujourd’hui : des chansons “intemporelles” comme des titres des Beatles ou de Queen par exemple.

Nous avons fait notre analyse sur le nombre d’écoutes total : retrouve t’on les mêmes conclusions en prenant indépendemment les Streams Spotify et les Vues Youtube ?

Nombre de Streams / Vues en fonction de l’année de publication

On peut dire que de manière générale, on retrouve la même forme de graphique quand on prend nos variables indépendantes.

On remarque tout de même que les Streams Spotify sont plus constants au niveau du temps que les Vues Youtube. La moyenne et la médiane des Streams est plutôt constante alors qu’on remarque de plus grandes fluctuations pour les Vues. Le nombre de Vues semble être croissant en fonction de l’année de publication.

Notre interprétation est que les auditeurs/utilisateurs utilisent plus Youtube pour les chansons récentes car il apprécient la valeur ajoutée de la vidéo (la production de “clips” pour les chansons c’est démocratisée depuis l’arrivée de la télévision dans les foyers). Or plus une chansons est ancienne, moins il y a de chance qu’elle est un “clip” associé.

Ainsi, les auditeurs utilisent plus Spotify pour écouter les titres qu’ils apprécient indépendamment de leur ancienneté alors qu’ils utilisent Youtube plus Youtube pour regarder des clips de chansons et moins pour de l’écoute “passive” comme pour Spotify. On pourrait faire l’hypothèse (sans pouvoir la confirmer avec les données qui sont disponibles dans notre jeu de données) que les Streams de Spotify proviennent souvent des mêmes utilisateurs qui écoutent plusieurs fois le même titre parce-qu’ils l’apprécient alors que les Vues Youtube proviennent de plus d’utilisateurs qui découvrent la musique avec son clip (à titre personnel, il est plus probable que je partage un lien Youtube que Spotify pour faire connaitre une chanson que j’aime bien à un.e proche).

Conclusions

  • Notre dataset est échantilloné sur des titres “populaires” indépendemment de leur date de publication.

  • Avec l’émergeance de Spotify et Youtube, certaines chansons peuvent plus facilement “faire le buzz”.

  • Les deux plateformes ne sont pas forcément utilisées pour les mêmes raisons : Spotify plus pour de l’écoute “passive” des titres déjà appréciés alors que Youtube pour pour de la découverte de chansons ?

Question 2:

Existe t’il une relation entre le nombre de streamings Spotify ainsi que le nombre de vues sur Youtube ?

  • On s’attend à ce que les chansons plus ‘vieilles’ aient plus de vues totales sur Youtube car Youtube existe depuis plus longtemps.

  • Cependant on s’attend à ce que les chansons plus ‘récentes’ (publiées après Spotify) aient plus de streams totaux sur Spotify car il semblerait que Spotify tend à remplacer Youtube pour l’écoute de musique depuis sa création (hypothèse qu’on pourra essayer de vérifier par l’analyse aussi)

Récupation des données du nombre de stream avant et après 2008
Nuage de point sensé représenter la relation entre le nombre de vues et le nombre de stream
## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'
## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'
## Warning: No shared levels found between `names(values)` of the manual scale and the
## data's colour values.

Analyse

Les deux nuages de point représentent la relation entre le nombre de stream sur Spotify et le nombre de vues sur youtube pour les chansons sorties avant et après 2008. Comme on peut le voir , que se soit avant ou après l’année 2008 qui est l’année à laquelle spotify a été créé , il existe bien une relation qui tend vers la linéarité entre le nombre de stream sur spotify et le nombre de vues sur youtube.

On peut également observer un changement entre les deux nuages de points. En effet après 2008, la relation est un peu moins linéaire et on a un peu plus de point en dessous de la droite ce qui rejoint notre hypothèse selon laquelle les chansons les plus récentes sont plus streamées sur spotify que visionnées sur Youtube.

Enfin grace au lineplot qui permet de visualiser l’évolution annuelle du nombre de vues sur youtube et du nombre de stream sur spotify on peut voir que pour les chanson sorties à partir de 2010, on a une augmentation du nombre d’écoute sur spotify par rapport à youtube.

Question 3

Est-ce que les singles sont plus écoutés/appréciés des auditeurs que les albums ?

Rappel : Les valeurs possibles pour la variable ‘Album_type’ sont album, single et compilation.

  • On s’attend à ce que les singles soit plus écoutés que les albums de manière générale.

  • On ne sait pas trop à quoi s’attendre pour les compilations

Selection des colonnes qui nous intéressent pour cette question et transfer dans un nouveau dataframe ‘df_q3’
##     Artist Album_type Duration_ms     Views     Stream       date annee mois
## 1 Gorillaz      album      222640 693555221 1040234854 2005-05-23  2005    5
## 2 Gorillaz      album      200173  72011645  310083733 2010-03-03  2010    3
## 3 Gorillaz     single      215150   8435055   63063467 2022-08-31  2022    8
## 4 Gorillaz      album      233867 211754952  434663559 2010-03-03  2010    3
## 6 Gorillaz      album      245000 259021161  323850327 2005-05-23  2005    5
## 7 Gorillaz     single      274142    451996   10666154 2022-11-18  2022   11

Maintenant que nous avons un dataframe ‘df_q3’ plus adapté pour cette question, nous allons tout d’abord analyser la proportion de chaque type d’album dans ce jeu de données.

Analyse de la décomposition du jeu de données par type d’album

On remarque qu’une grande majorité des titres du dataset sont issus d’un album. Environ 1/4 des titres sont issus d’un single et il y peu de titres issus de compilations.

Diagramme en Boîte à moustaches de Stream et Views par Type d’Album

Visualisation faite avec Tableau :

On s’attendais à ce que les singles soient plus écoutés que les albums puisqu’ils sont souvent plus mis en avant de manière individuelle par rapport aux albums. Mais on observe que les albums sont plus écoutés que les singles. Ceci est surtout vrai sur Spotify : il n’y a pas de grande différences pour Youtube.

Il n’y a pas de grande différence entre les singles et les compilations, la moyenne des Streams pour les singles est légèrement plus élevée mais les médianes sont très proches. On peut à la limite dire qu’il y a plus de d’outliers avec un grand nombre d’écoute pour les singles que pour les compilations.

Conclusions

  • Les chansons issues d’album sont bien plus écoutés que les singles, surtout sur la plateforme Spotify.

  • Les valeurs restent tout de même assez serrées, cette analyse n’est pas très conclusive : il faudrait peut-être plus de données pour faire une analyse par artiste entre les singles, albums et compilations. (Il n’y a pas assez de titres par artiste dans notre dataset pour avoir des résultats exploitables)

Question 4

Y-a-t-il un lien entre les différents attributs des chansons et leur popularité ?

On pourra par exemple aussi ajouté la comparaison avec la valeurs moyenne des attributs en fonction du nombre d’écoutes/la popularité.

Variables : attributs, ‘Streams’, ‘Views’, ‘Likes’, ‘Comments’ Objectif

Relation + Comparaison avec valeurs discrètes (nombres d’écoutes) et continues (attributs).

Hypothèses :

  • On peut s’attendre à ce que les titres avec plus de mots parlés soient plus populaires.

  • On peut aussi s’attendre à avoir une répartition avec beaucoup de titres ‘lives’ avec très peu d’écoutes mais aussi beaucoup avec un grand nombre d’écoutes car c’est un attribut dans une chanson qui peut être plus tranchant pour les auditeurs. On suppose que beaucoup de gens adorent la musique ‘live’ mais aussi beaucoup de gens la détestent aussi.

Analyse

Pour vérifier nos Hypothèses, il suffit de calculer la popularité des différents type de musique. Le résultat de la question 7, qui a catégorisé tous les morceaux dans le jeu de donnée, est très utile pour répondre à cette question. A la fin de la question 7, on trouve un résultat en format csv, qui contient le cluster des chanson et ses indicateurs de popularité :

A partir de ce fichier, on peut faire une comparaison entre les chansons de différent cluster :

Popularité
Popularité

Voici le résultat, les données sont normalisé car la différence entre les groupes sont trop grande, donc les données sont présentées sous la forme de pourcentage. Le cluster plus populaire, donc le cluster n°2, est considéré comme 100%, et le cluster moins populiare, le n°6, est représenté comme 0%.

On trouve que les chansons plus populaires est ceux qui est dancable et avec valence. La performance des “lives” ne sont pas vraiment très mauvais. Ils se sont classés en quarième mais il ne présente pas une grande différence absolute par rapport aux autres groupes. Pauvre musique classique “instrumentale” et “acoustique”, s’est classée sans doute en dernière position.

Question 5:

Quel est le lien entre le nombre de commentaires et/ou le nombre de likes et le nombre d’écoutes d’un titre ?

Variables : ‘Streams’, ‘Views’, ‘Likes’, ’Comments

Objectif : Relation avec valeurs discrètes.

Rappel : On suppose qu’on pourra repérer un seuil de nombres d’écoutes à partir duquel la quantité de like et/ou commentaires augmentent fortement. En bref, le signal à partir de ce seuil passerait de linéaire à exponentiel.

Cette hypothèse vient du fait que nous supposons qu’à partir de cette valeur seuil, il y a assez d’engouement pour un titre pour qu’il “fasse le buzz”.

On a pensé à cette valeur seuil car les algorithmes de recommandation de Youtube cherchent à “faire buzzer” des vidéos (du peu que nous connaissons de ces algorithmes du côté utilisateur).

Nuage de point sensé représenter la relation entre le nombre de Streams et le nombre de Likes

Analyse

Ce diagramme de dispersion représente la relation entre le nombre de streams sur Spotify et le nombre de likes reçus par la musique.

On peut constater qu’avec l’augmentation du nombre de streams, le nombre de likes augmente également, ce qui suggère que le contenu plus populaire obtient généralement plus de likes, ce qui est conforme à notre compréhension initiale.

Avec l’augmentation du nombre de streams, la dispersion du nombre de likes augmente également. Lorsque le nombre de streams atteint 100 000, la plupart des likes se situent entre 1 et 100 000, mais lorsque le nombre de streams atteint 1 000 000 000, le nombre de likes varie de 1 à près de 100 000 000. Cela indique une plus grande incertitude quant aux likes pour le contenu avec un grand nombre de streams.

Il existe quelques valeurs aberrantes possibles dans le graphique, en particulier dans la zone de forts streams. Les points ayant un grand nombre de streams mais un nombre de likes très faible peuvent représenter de la diffusion virale ou du marketing excessif de la musique.

Nuage de point sensé représenter la relation entre le nombre de Views et le nombre de Likes
## `geom_smooth()` using formula = 'y ~ x'

Analyse

Ce graphique de dispersion représente la relation entre le nombre de vues sur YouTube et le nombre de likes reçus par la musique.

On peut observer qu’avec l’augmentation du nombre de vues, le nombre de likes augmente également. Cette forte corrélation positive suggère que les vidéos avec un grand nombre de vues ont tendance à recevoir davantage de likes. Cela est logique, car une exposition accrue entraîne généralement plus d’interaction.

En même temps, sur une échelle logarithmique, la distribution des points se rapproche d’une ligne droite. On peut ajouter une ligne dans le graphique pour visualiser cela, ce qui indique une relation de puissance entre les vues et les likes. Sur une échelle logarithmique, chaque augmentation de pourcentage fixe dans le nombre de vues entraîne également une augmentation de pourcentage fixe dans le nombre de likes.

Nuage de point sensé représenter la relation entre le nombre de Views et le nombre de Comments

Analyse

Ce graphique de dispersion représente la relation entre le nombre de vues sur YouTube et le nombre de commentaires reçus par la musique.

En observant les points noirs, on peut remarquer qu’avec l’augmentation du nombre de vues, le nombre de commentaires augmente également. Cette corrélation positive suggère que les vidéos avec un grand nombre de vues ont tendance à recevoir plus de commentaires.

Les points bleus dans le graphique représentent les cas où le nombre de commentaires est de zéro. Certains vidéos, bien qu’ayant un grand nombre de vues, n’ont toujours pas de commentaires. Cela peut être dû au fait que les créateurs ont désactivé les commentaires sur la vidéo.

Pour des vidéos avec le même nombre de vues, le nombre de commentaires peut varier. Cela peut être dû au contenu de la musique, certaines musiques étant plus susceptibles de susciter des commentaires que d’autres. De plus, pour des vidéos avec le même nombre de commentaires, le nombre de vues peut également varier. Par exemple, il existe des vidéos avec plus d’un million de vues qui ont moins de dix commentaires, tandis que d’autres vidéos avec moins de mille vues ont également moins de dix commentaires. Cela peut être dû à la nature de la musique, certaines musiques, telles que la musique de fond ou la musique dans une langue moins courante, pouvant inciter les spectateurs à apprécier la mélodie sans nécessairement laisser de commentaires.

Conclusions

Il existe une corrélation positive entre le nombre de streams sur Spotify et le nombre de likes, entre le nombre de vues sur YouTube et le nombre de likes, ainsi qu’entre le nombre de vues sur YouTube et le nombre de commentaires. Cependant, différent à ce que l’on pourrait penser, ces relations ne suivent pas une progression linéaire dès le départ et après une progression exponentielles. Parmi ces relations, la relation entre le nombre de vues sur YouTube et le nombre de likes suivre une loi de puissance de manière assez évidente.

Question 6

Est-ce possible de discerner des ‘modes’ en termes d’attributs de chansons en fonction du temps ?

Par exemple : le rap qui était à la mode à une période donnée et donc plus de titres avec les attributs ‘Speechiness’ élevé et ‘Instrumentalness’ faible.

Il s’agit donc ici d’essayer de repérer des intervalles de valeurs communes pour les attributs des titres d’une même période.

Variables : attributs, ‘date’

Objectif : Relation + Evolution (+ distribution/statistique) avec valeurs continues (attributs) et ordinales (dates qu’on catégorisera en périodes : intervalles de dates).

Hypothèses :

On s'attend à ce qu'on retrouve des intervalles de valeurs pour les attributs qui auront une densité légèrement plus élevée : il sera cependant probablement difficile de raccorder ces données à un genre précis de musique comme le rap donné en exemple.
La difficulté avec cette question/analyse est que sans savoir ce qu'on cherche, il sera peut-être difficile de repérer des schémas/patterns pour les attributs des chansons en fonction de la période. Il est donc possible que notre analyse soit difficilement conclusive.
Visualisation de l’évolution des styles de chansons
histogram
histogram

Une chansons est caractérisée par différents attributs qui sont son acoustique, ses paroles , sa dansabilité ainsi que son intensité se sont ces différentes caractéristiques qui définissent une chanson. Le but de notre recherche est de déterminer si durant certaines périodes certains de ces attributs dominent plus que les autres c’est à dire si par exemple en l’an XXXX les chansons avec beaucoup paroles était populaire.

Pour réaliser cette analyse , nous avons d’abord normalisé ces attribut pour leur donner les même échelles et nous avons ensuite pour chaque année compter le nombre de musique ou chaque attribut domine. On peut voir par exemple en 1962 que 84% des chansons ont un aspect acoustique relativement important. Et c’est le cas durant toutes les années de 1960 à 1980. Par contre cette tendance évolue en effet durant les années 2000 on peut observer que cette répartition des chanson se stabilise et on a à peu près un équilibre entre les différents attributs.

Au vu de cette analyse , on peut conclure que oui le caractère acoustique, parole ou dansabilité des différentes chansons évolue avec le temps. Il y’a des période où les chansons avec beaucoup d’acoustiques sont les plus répandues et d’autres où elles le sont moins

Question 7:

Est-ce qu’on peut reconnaître un artiste / un album par une combinaison des attributs ?

Variables :

  • ‘Artist’

  • ‘Album’

  • Les variables quantitatives musicales

    • “Danceability”

    • “Energy”

    • “Key”

    • “Loudness”

    • “Speechiness”

    • “Acousticness”

    • “Instrumentalness”

    • “Liveness”

    • “Valence”

    • “Tempo”

Objectif : Relation + Comparaison + Distribution avec valeurs continues (attributs) et nominales (artistes, albums).

Analyse :

Une combinaison des attributs, c’est un style musical. Nous pouvons reconnaître un artiste/un album en comptant le nombre des chansons dans différent styles.

Pour atteindre cet objectif, il faut trouver un moyen pour définir les différentes styles musicaux. Nous pouvons faire l’étude à partir de la relation et la corrélation entre les variables quantitatives. Il y a beaucoup de variables qui peut décrire le style musical dans notre jeu de données choisi : “Danceability”,“Energy”,“Key”,“Loudness”,“Speechiness”,“Acousticness”,“Instrumentalness”,“Liveness”,“Valence”,“Tempo”.

Il sont nombreux, il est donc logique de faire d’abord une analyse en composantes principales pour rendre une représentation 2D possible.

Pour analyse le résultat, nous imprimons l’inertie des composantes principales et le cercle de corrélation :

inertie cercle_de_correlation

Le cercle de corrélation nous montre qu’il existe plusieurs groupes d’attribut : Danceability et Valence Loudness et Energy Tempo et Liveness Acousticness et Instrumentalness Speechiness et Key(ce groupe ne donne pas beaucoup de contribution sur les cps.)

Maintenant nous pouvons continuer notre analyse, nous allons essayer de trouver les différente sytle musicale par la classification ascendante hiérarchique :

Si on faire une combinaison du résultat de la classification ascendante hiérarchique et le cercle de corrélation, on trouve que les groupes de variable dans le cercle de corrélation nous permettent de décrire les clusters. Par exemple, le cluster 1 est Ce cluster est fortement influencé par Danceability et Valence, le cluster 2 est influencé par Loudness et Energy, etc.

Plot combiné
Plot combiné

On peut maintenant valider notre hypothèse grâce à ce découvert. Le nuage de point des titres et aussi un nuage de point des artiste. Prenons l’exemple du groupe “AC/DC”, on liste nombre de ses ouvres dans chaque cluster :

Cluster 1 (“Loudness” , “Energy” ) : 3
Cluster 2 (“Dancablity”, “Valence” ) : 2
Cluster 3 : 0
Cluster 4 (“Tempo” , “Liveness”) : 4
Cluster 5 : 0
Cluster 6 : 0

Donc on trouve les caractères liés au ce groupe, et ces caractères correspondent bien notre impression sur “AC/DC” ! .

Conclusion :

Reconnaître un artiste/un album par des attributs est tout à fait possible. Grâce à une combinaison d’analyse en composantes principales et la classification ascendante hiérarchique, nous pouvons trouver les différents styles musicals puis le style d’artiste/album.

Question 8

Sur youtube, est-ce que la distinction officiel/pas officiel a un effet sur les écoutes ? / les likes ? / les commentaires ?

Variables : ‘Official_video’, ‘Views’, ‘Likes’, ‘Comments’

Objectif : Relation avec valeurs discrètes (nombres d’écoutes, likes, …) et nominales (official_video).

Hypothèses :

Il semblerait que le jeu de données ne propose pas de vidéos officielles et des vidéos non officielles pour un même titre donc on peut supposer que si la vidéo d'une chanson n'est pas officielle, il n'existe probablement pas de vidéo officielle.
On s'attend donc à ce qu'il n'y ai pas de grande différence entre les écoutes / likes / commentaires des vidéos officielles et non officielles.
Nombre de Views, Likes et Comments pour l’année 2021
histogram
Nombre de Views, Likes et Comments pour l’année 1960
histogram
histogram
Nombre de Views, Likes et Comments pour l’année 1967
histogram
histogram

Le but de cette analyse était de déterminer si le caractère officiel ou non d’une chanson avait une influence sur son nombre de vues ou de like ou de commentaires. Pour des soucis d’équitté étant donné qu’on a beaucoup plus de chanson officiel que non officielle , nous avons fondé notre analyse sur la moyenne.

Comme on pouvait s’y attendre les musique officielle sont largements plus appréciées et et regardé que les vidéos non officielles. Par contre , on peut observer autre chose , c’est que pour les chansons sortie il y’a relativement longtemps, on rencontre beaucoups plus de cas où le chansons non officielles dépassent celles officielles. c’est le cas par exemple pour les chansons sorties en 1960 où celles sorties en 1967 .

Cela s’explique par le fait que quands ces chansons sont sorties , Youtube n’était pas encore assez connue pour qu’une chaine soit systématiquement créée et la chanson postée déçu ainsi pour ces vielles chansons , se sont généralement des particulier qui les enregistre et les déposent sur Youtube

Question 9

Est-ce que la fréquence de diffusion d’album / de single d’un artiste peut avoir un effet sur sa popularité ?

Variables : ‘Streams’, ‘Views’, ‘Artist’, ‘Album-type’, ‘date’ pour obtenir la fréquence

Objectif : Relation avec valeurs discrètes (nombres d’écoutes), nominales (artistes, type d’albums) et continues (fréquence).

Rappel : On peut commencer par faire l’analyse indépendemment du type de l’album, mais on a trouvé cela pertinent d’aussi voir si cette variable a un effet sur nos résultats.

  • On suppose que d’avoir une fréquence plus élevée de publication de titres est liée à la popularité d’un artiste. Ceci repose sur l’hypothèse que le simple fait de publier donne de l’engouement naturel à un artiste : surtout qu’ils communiquent autour de leurs publication généralement.

  • Le format du single cherche plus à apporter de l’engouement pour un artiste en règle générale : peut-être que si un artiste publie souvent des singles, il aura plus d’écoutes ?

Traiter le format des dates dans les données et afficher toutes les valeurs de l’année dans la base de données

Comme la période annuelle des données est trop grande, la période peut atteindre 50 ans. Au cours des 50 années, certains artistes peuvent avoir été inactifs pendant une longue période. Nous avons donc décidé d’étudier les données de 2019 à 2023 pour les analyser.

Filtrez l’ensemble de données pour conserver les données de la période 2019 à 2023
Regroupez par artiste, année et type d’album pour calculer le nombre de sorties et le nombre total de streams par an
Calculez la fréquence de sortie annuelle moyenne et le nombre total de flux par artiste, en conservant Album_type
Diagramme d’un nuage de points de la fréquence des sorties et du nombre de flux, coloré par Album_type

Analyse :

Ce graphique en nuage de points illustre la relation entre le nombre moyen d’albums publiés par an et le nombre moyen de flux de spotify par an pour chaque artiste de 2019 à 2023.

On constate que pendant cette période, la plupart des artistes ont publié en moyenne entre 0 et 3 albums par an, correspondant à des flux annuels compris entre 0 et 2 500 000 000.

Le nombre d’artistes publiant en moyenne plus de 5 albums par an est faible, et pour ceux qui publient en moyenne 10 albums par an, leur flux n’est pas significativement plus élevé que ceux qui publient moins d’albums.

En revanche, plusieurs artistes qui publient en moyenne environ 4 albums par an ont généré un flux particulièrement élevé.

Cela est conforme à la logique, car publier trop d’albums en une année peut entraîner une baisse de qualité des œuvres, ce qui peut à son tour entraîner une baisse du nombre d’écoutes. En même temps, pour les artistes très connus, même s’ils publient très peu d’albums par an, ils peuvent avoir l’occasion de générer un flux très élevé.

Les points rouges sur ce graphique représentent les œuvres des artistes sous forme d’albums, tandis que les points bleus représentent les œuvres sous forme de singles.

Nous pouvons voir que dans les zones de flux élevé, presque tous les points sont rouges, tandis que les points bleus sont plus concentrés dans les zones de faible flux. De cela, nous pouvons déduire que la forme des œuvres a une certaine influence sur le nombre de flux. La forme d’un album peut, dans une certaine mesure, aider les œuvres à obtenir plus de flux.

Ensuite, nous avons commencé à faire la même analyse sur la relation entre la fréquence annuelle moyenne de sortie d’un album et les vues sur YouTube.

Diagramme d’un nuage de points de la fréquence des sorties et du nombre de flux, coloré par Album_type

Analyse :

Cette carte de dispersion montre la relation entre la fréquence moyenne annuelle de publication d’albums et les vues annuelles moyennes pour chaque artiste sur la période 2019-2023, en distinguant les types d’albums par des couleurs différentes , où le rouge représente les albums et le bleu représente les singles .

Lorsque la fréquence moyenne annuelle de publication d’albums est faible (0-2,5), la plage de variation des vues annuelles moyennes est très large, allant de presque zéro à plus de 2 milliards.

Lorsque la fréquence moyenne annuelle de publication d’albums est élevée (2,5-10), les vues annuelles moyennes tendent à être plus faibles et les points de données sont plus clairsemés, ce qui indique qu’une augmentation de la fréquence de publication d’albums n’entraîne pas nécessairement une augmentation des vues.

Globalement, il n’y a pas de corrélation positive directe entre la fréquence moyenne annuelle de publication d’albums et les vues annuelles moyennes. Les vues élevées apparaissent plus souvent dans la zone de faible fréquence de publication d’albums.

Dans la zone de faible fréquence de publication, les singles et les albums peuvent tous deux atteindre des niveaux élevés de vues. Dans la zone de haute fréquence de publication, les singles ont quelques points de vues annuelles moyennes plus élevés, tandis que les albums ont des vues annuelles moyennes relativement plus basses, ce qui pourrait indiquer que les singles sont plus susceptibles de maintenir des vues élevées lorsqu’ils sont publiés fréquemment.

Le type d’album a un certain impact sur les vues. Bien que les deux types aient des points de données avec des vues élevées dans différentes plages de fréquence de publication, les singles ont une plus grande probabilité de maintenir des vues élevées lorsqu’ils sont publiés fréquemment.

Conclusions :

La fréquence moyenne annuelle de publication d’albums n’a pas de relation directe avec le flux de morceaux sur Spotify et le nombre de vues sur YouTube. Il est probable que d’autres facteurs influencent davantage ces flux et ces vues. Nous supposons que ces facteurs pourraient être la popularité de l’artiste ou la qualité des chansons.

La forme de l’œuvre a un certain impact sur les flux et les vues. En ce qui concerne les flux, il semble que les gens préfèrent écouter des albums sur Spotify. Quant aux vidéos, les albums et les singles ont tous deux la possibilité d’obtenir un grand nombre de vues, mais lorsque des œuvres sont publiées fréquemment, les gens semblent préférer regarder des vidéos de singles plutôt que des albums.

Question 10

Quels sont les effets d’un ‘feat’ sur un titre ?

Un ‘featuring’ en musique indique dans le titre de la chanson que celle-ci est une collaboration entre l’auteur et l’artiste featuré.

Variables : ‘Streams’, ‘Views’, ‘track’, ‘Artist’

Objectif : Relation avec valeurs discrètes (nombres d’écoutes) et nominales (track, artistes).

Hypothèses :

  • On s’attend à ce qu’en général, les titres avec des ‘feat’ soient plus populaires que ceux sans, surtout au sein des chansons d’un même artiste.
Préparation d’un dataframe pour la question
##                                           Track   Artist     Views     Stream
## 1                                Feel Good Inc. Gorillaz 693555221 1040234854
## 2                               Rhinestone Eyes Gorillaz  72011645  310083733
## 3 New Gold (feat. Tame Impala and Bootie Brown) Gorillaz   8435055   63063467
## 4                            On Melancholy Hill Gorillaz 211754952  434663559
## 5                                Clint Eastwood Gorillaz 618480958  617259738
## 6                                          DARE Gorillaz 259021161  323850327
##     Likes Comments Speechiness  Feat
## 1 6220896   169907      0.1770 FALSE
## 2 1079128    31003      0.0302 FALSE
## 3  282142     7399      0.0522  TRUE
## 4 1788577    55229      0.0260 FALSE
## 5 6197318   155930      0.1710 FALSE
## 6 1844658    72008      0.0372 FALSE

Nous avons préparer un dataframe qui a notamment une colonne “feat” de valeur TRUE ou FALSE pour nous aider dans cette question.

Proportion de titres avec Feat dans le jeu de données

On remarque, sans grande surprise, que la grande majorité des titres de notre jeu de données ne sont pas issus d’une collaboration.

On peut donc continuer notre analyse des données mais gardons en tête que les titres avec Feat sont relativement peu nombreux.

Comparaison de respectivement le nombre de Streams et de Vues avec ou sans Feat

Nous avons utilisé un diagramme en boîte à moustache car d’après nos analyses précédentes, notre dataset a des valeurs de nombre d’écoutes (streams et/ou vues) en grand nombre et assez dispersées. C’est pourquoi un diagramme ‘statistique’ de ce style est très adapté à notre visualisation pour cette question.

On voit de manière assez claire que les chansons avec Feat sont plus écoutées en moyenne que celles sans. Il y a aussi des nombres d’écoutes plus grand pour le quatrième quartile (ligne au-dessus des boîtes) qui est plus long et haut pour les Streams comme pour les Vues des chansons avec Feat. Ceci concorde avec notre hypothèse initiale que les titres issus d’une collaboration soient plus ‘populaires’.

Est-ce qu’on retrouve la même tendance au niveau des Commentaires et des Likes ?

Comparaison de respectivement le nombre de Likes et de Commentaires avec ou sans Feat

Oui, on remarque bien la même tendance pour les Commentaires et les Likes. Les titres avec Feat sont plus likés et commentés que ceux sans. Il est probable que cela soit dû au fait que si un auditeur apprécie les deux artistes collaborateurs : il a deux fois plus de chances d’intéragir positivement avec le titre en question en laiçant un commentaire ou un like.

Nous avons donc des résultats plutôt conclusifs quand on analyse l’effet d’un feat sur la popularité mais nous sommes curieux de savoir si cela a un effet sur d’autres choses.

Un Feat représente une collaboration entre au moins deux artistes/groupes différents sur un titre donné. Si il y a plus d’artistes sur une chanson, il a peut-être plus de paroles pour ne pas faire de jaloux ?

Nous pensons notamment à certains rappeurs.euses qui apparaissent souvent sur des titres d’autres artistes pour quelques mesures de rap ou de slam par exemple.

Est-ce qu’on peut observer une relation entre la présence d’un Feat et l’attribut ‘Speechiness’ d’un titre ?

Distribution de l’attribut ‘Speechiness’ des titres avec ou sans Feat

Comme pour l’effet sur la popularité, nous observons des résultats plutôt clairs. Nous voulons juste rappeler que la proportion de titres avec Feat est assez faible dans notre jeu de données : ceci explique probablement pourquoi nous avons des visualisations aussi tranchées. Les conclusions que nous tirons sur cette question sont peut-être significatives pour la musique moderne de manière générale mais aussi peut-être juste explicatives pour les choix faits lors de l’échantillonage du jeu de données.

On remarque que les titres avec Feat ont des valeurs de ‘Speechiness’ significativement plus élevées que les titres sans ce qui tendrait à confirmer nos hypothèses.

Distribution et Densité de l’attribut ‘Speechiness’ des titres avec ou sans Feat
## Warning in min(x): no non-missing arguments to min; returning Inf
## Warning in max(x): no non-missing arguments to max; returning -Inf

Nous avons utilisé presque exclusivement des diagrammes en boîte à moustache dans cette question : nous avons voulu proposer une autre visualisation ‘statistique’ de la densité avec ce graphique en violon.

Avec cette visualisation, il est plus facile de voir que les chansons sans collaboration ont des valeurs de ‘Speechiness’ beaucoup plus concentrées que pour les chansons avec qui sont plus dispersées en faveurs de valeurs de ‘Speechiness’ plus élevées.

On remarque aussi qu’il a bien moins de points verts que de points oranges, rappelant la faible proportion de titres avec Feat dans le jeu de données.

Conclusion

  • Il a proportionnellement peu de titres issus d’une collaboration dans notre jeu de données ce qui explique des résultats très (trop) conclusifs : il est important de noter cette proportionnalité inéquitable lorsqu’on présente ces résultats

  • Les titres avec Feat sont plus ‘populaires’ que les titres sans Feat

  • Les chansons sans collaboartion ont des valeurs de ‘Speechiness’ plus concentrées vers des valeurs faibles alors que les chansons avec collaboration sont plus équitablement dispersées en faveur de valeurs de ‘Speechiness’ plus élevées.

Question 11

Y-a-t-il un lien entre les valeurs des différents attributs comme ‘danceability’ et ‘energy’ ?

Variables : attributs quantitatifs

Objectif : Relation + Comparaison avec valeurs continues (attributs).

Hypothèses :

On s’attend à ce qu’il y ai des liens plus forts entre certains attributs qu’avec d’autres.

Analyse sur la question

Après tous les questions et recherches précédentes et par l’expérience dans la vie quotidienne, on peut déjà avoir une hypothèse que certain variable quantitatifs peuvent avoir une corrélation avec les autres. Le but de cette question est d’essayer faire une analyse et quantifier ces corrélation entre les attributs. On peut facilement calculer la matrice de corrélation entre ces attributs.

res
res

Voici la matrice de corrélation. Nous voyons bien que la corrélation entre “Danceability” et “Energy” est 0.24. Le lien entre ces deux variables existe mais n’est pas très fort. La variable plus corrélée avec “Dancability” est “Valence”(0.46). #### Conclustion Cette matrice nous permet aussi de consulter la corrélation entre les n’importe quel binôme de variable, que ce soit positif ou négatif.

Question 12

Comment est-ce que la durée des différentes chanson a évoluée avec le temps ?

Variables : année, durée

Objectif : comparaison + évolution (attributs).

Hypothèses : de manière générale , il est facile de se rendre compte que les chasons qui qui sortaient au paravant étaient deux fois plus longues que celles qui sortent actuellement d’ailleurs la longueur des chanson se réduit de plus en plus. En effet , les chansons allaient jusqu’à 7 minutes et maintenant elles tournent autour de 3 minutes.

on s'attend donc à une visualisation sur laquelle on pourra remarqué que pour les décénies , les plus éloignée on aura beaucoup plus de chanson avec une durée relativement forte , tandis que avec l'évolution du temps , la répartition changera et on aura beaucoups plus de chanson de faible durée.

histogram histogram histogram

Le but de cette question était d’évaluer la répartition des durée des différentes chansons et de comparer cette répartition en fonction de l’année de sortie de chaque chanson. L’hypothèse était que plus les musiques sont récentes et plus elles sont courtes de façon globales.

La première chose que l’on remarque sur cette visualisation est que , sur quasiment toutes les périodes , la durée de musique la plus répandue se trouve entre 3 et 4 minutes . Cela peut s’observer par des piques de l’histogramme à ce niveau là

La deuxième chose que l’on remarque , c’est que plus rentre dans le temps , c’est-à-dire vers les années 1980 et autres et plus on a des chansons qui ont une durée de 6 à 7 minutes. c’est le cas par exemple autour des années 1980. on observer également en 1973 un nombre relativement élevé de musique dont la durée varie entre 4 et 6 minutes , ce qui confirme un peu notre hypothèse. Enfin on peut remarquer que à partir des année 2010, on note beaucoup moins de chanson ayant une durée supérieure à 5 minutes par rapport aux années précédentes

Conclusion du Rapport :

Ce projet nous a permis de découvrir et d’analyser en profondeur les différents aspects d’un large jeu de données musicales. À travers nos analyses, nous avons pu identifier des tendances claires dans la popularité des artistes, l’impact des genres musicaux, et l’effet des collaborations sur la réception des titres. Nous avons appris sur l’importance de l’échantillon étudié et donc l’effet que l’échantillonage peut avoir sur les résultats observés.

Le fait que notre jeu de données avait beaucoup de métriques pour les chansons (‘Danceability’, etc…) était un attrait lorsqu’on l’a choisi mais ces mêmes attributs se sont révélés assez difficiles à visualiser. Une autre difficulté qu’a posée le jeu de données est le fait que les données de Streams, Likes, Vues, Commentaires étaient très redondants et difficile à analyser sans appliquer des statistiques ou juste des Diagrammes de points. La difficulté a donc été d’essayer de diversifier les types de visualisations que nous analysons. Cependant, nous avons fait beaucoup de recherches pour trouver des visualisations originales, ce qui nous a été très enrichissant au final.

Pour remédier à ces difficultés, on aurait aussi pû essayer de trouver un autre jeu de données ou utiliser l’API de Spotify pour complémenter nos données comme on a fait pour les dates de publication des titres. Dans cette mesure, on aurait pû avoir des données sur le genre musical par exemple.

Zoé Boutin :

La compétence que je retiens de ce projet est celle de l’explication d’une visualisation. En effet, c’est une première tâche de créer une visualisation avec R (ou pandas, etc…) mais j’ai trouvé cela plus challengant et plus intéressant d’avoir un regard critique et explicatif sur mes différentes visualisation. Cela m’a fait prendre du recul sur le travail de l’infographie et de la data analyse et ses complexitées. J’aurais aimé essayé de faire des visualisations plus ‘flashy’ ou ‘clickbait’ plus lissées et avec des images ou des couleurs mais les contraintes de notre jeu de données ainsi que les contraintes temporelles m’en ont empechées. Mais ce projet m’a certainement donné envie de chercher plus loin.

Brian Diffo Diffo :

Au cours de ce projet de visualisation de données, le premier apprentissage dont j’ai pu bénéficier a été la manipulation des différents outils de visualisation de données en R ainsi que le traitement des données avec les différents packages tels que Tidyverse ou dplyr. J’ai également eu la possibilité d’apprendre à agencer les visualisations afin de leur donner plus de sens et de simplifier leur analyse en effectuant des traitements tels que l’ajustement de l’échelle ou encore la transformation logarithmique. J’ai appris que la visualisation de données n’est pas seulement une question d’informatique ou de programmation, mais qu’elle comporte plusieurs aspects importants permettant de faciliter la compréhension des données.

Hanxiao Sun :

He Huang :

Annexe (répartition du travail)

Zoé Boutin :

  • Questions : 1, 3, 10

  • Introduction

Brian Diffo Diffo :

  • Questions : 2, 6, 8, 12

  • Shiny

Hanxiao Sun :

  • Questions : 5, 9

He Huang :

  • Questions : 4, 7, 11

Bonus :

Lors de nos recherches pour ce projet, nous avons trouvé les visualisations issus du projet TidyTuesday très inspirants.

Le TidyTuesday Challenge est une initiative hebdomadaire organisée par la communauté R for Data Science (R4DS), où les participants sont invités à explorer, nettoyer et visualiser des jeux de données fournis chaque mardi, en utilisant les principes de la “tidyverse” en R. Cet exercice vise à améliorer les compétences en manipulation de données et en visualisation tout en favorisant l’apprentissage collaboratif et le partage de solutions créatives au sein de la communauté.

Nous avons fait une petite exploration avec le script de Jake Kaupp (@jkaupp sur github) pour essayer de le comprendre et approfondir notre maitrise de R et des packages Tidyverse.

Ci-dessous se trouve notre exploration du code de Jake Kaupp pour notre jeu de données puis sa visualisation pour une itération du TidyTuesday.

rush <- df %>% 
  filter(!is.na(Track), Artist %in% c("Metallica", "Smash Mouth", "ABBA", "Britney Spears", "Wolfgang Amadeus Mozart"), Track %in% c("Screaming Suicide", "All Star", "Dancing Queen", "Toxic", "Piano Concerto No. 21 in C Major, K. 467: II. Andante")) %>% 
  distinct(Track, .keep_all = TRUE) %>% 
  select(Track, Artist, Danceability, Energy, Speechiness, Acousticness, Instrumentalness, Liveness, Valence, Tempo) %>% 
  mutate(color = c("#f7b801","#f18701","#f35b04","darkred","red")) %>% 
  mutate_at(vars(Track, Artist), as.character) %>% 
  mutate_at(vars(Danceability:Tempo), function(x) x/max(x)) %>% 
  pivot_longer(Danceability:Tempo) 


bg <- df %>% 
          distinct(Uri, .keep_all = TRUE) %>% 
          distinct(Track, Artist, .keep_all = TRUE) %>% 
          filter(!is.na(Track)) %>% 
          select(Track, Artist, Danceability, Energy, Speechiness, Acousticness, Instrumentalness, Liveness, Valence, Tempo) %>% 
          mutate(color = "#d8dee9") %>% 
  mutate_at(vars(Danceability:Tempo), function(x) x/max(x)) %>% 
  pivot_longer(Danceability:Tempo) 


test_plot <- ggplot(bg, aes(x = name, y = value)) +
  geom_line(aes(color = color,  group = Track), alpha = 0.1, size = 0.1) +
  geom_line(data = rush, aes(color = color, group = Artist), size = 0.5) +
  geom_point(data = rush, aes(color = color, group = Artist), size = 1) +
  geom_text(data = filter(rush, name == "Valence"), aes(label = glue("{str_replace_all(Artist, '(?<=.)(?!$)', ' ')}\n{Track}"), colour = color), family = "Arial", hjust = 0, nudge_x = 0.1, nudge_y = c(-0.05, 0, 0)) +
  scale_color_identity() +  
  scale_fill_identity() +
  scale_y_continuous(breaks = c(0, 0.5, 1), labels = c("Bas", "Moy", "Haut")) +
  scale_x_discrete(labels = function(x) str_replace_all(x, "(?<=.)(?!$)", " ")) +
  expand_limits(x = c(1, 10)) +
  labs(title = "Charactéristiques Musicales de quelques chansons",
       x = NULL,
       y = NULL) +
  theme_dark() +
  theme(axis.text.x = element_text(angle = 30, hjust = 1, size = 6),
        legend.position = "none")

test_plot
## Warning in y + params$y: longer object length is not a multiple of shorter
## object length
## Warning in grid.Call.graphics(C_text, as.graphicsAnnot(x$label), x$x, x$y, :
## font family not found in Windows font database

Lien vers le script de @jkaupp sur github